arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日__

arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日

¥ 1.0

热度

大型语言模型尽管功能强大，但往往会以令人惊讶和难以预测的方式失败。由于它们是基于大量网络规模的数据进行训练的，因此评估它们对语言的真正“理解”尤其具有挑战性。因此，我们利用构造语法 (CxG) 构建了一个评估系统，以系统地评估 LLM 中的自然语言理解 (NLU)，该评估系统可以洞悉语言元素（称为构造 (Cxns)）所捕获的含义。CxG 非常适合此目的，因为它为构建有针对性的评估集提供了理论基础。这些数据集经过精心构建，包含不太可能出现在预训练数据中的示例，但直观且易于人类理解，从而实现更有针对性和更可靠的评估。我们的实验重点关注下游自然语言推理和推理任务，通过将 LLM 对通过 8 个独特 Cxns 传达的底层含义的理解与人类的理解进行比较。结果表明，虽然 LLM 展示了一些结构信息知识，但即使是包括 GPT-o1 在内的最新模型也难以理解这些结构信息所传达的抽象含义，正如测试句子与其预训练数据不同的情况下所证明的那样。我们认为，这种情况可以更准确地测试真正的语言理解能力，凸显了 LLM 语义能力的关键局限性。我们将我们的新数据集和相关实验数据（包括提示和模型响应）公开。

添加pdf代下载 VIP点击下载文件